JSAI2026 クラウドソーシングにより得たラベルからのEnd-to-endモデリングにおけるゴールドデータの利活用に関する検討
クラウドソーシング
教師ラベル付きデータを大量に用意できる
アノテータの能力を推定したい
1人当たり多数の回答が必要
実際は数件しか得られない
→ 能力判定は困難
考え方
すべてゴールドデータの時のCNNの予測精度は0.95くらい(十分な性能)
そのアノテータが回答しそうなラベルを予測
既存手法
悪いアノテータは混同行列がぼやける
なるほど、行列の特性を使い方が上手いな daiiz.icon 提案改良
ゴールドデータに対する教師あり損失の導入
ゴールドデータに基づく混同行列初期化
データ
画像の8分類タスク
結果
E2Eモデルの分類精度が向上
混同行列推定の収束精度が改善